우리는 환경과 상호작용(interacting)하면서 배운다는 것은 우리가 학습의 본질에 대해 생각할때 가장 먼저 떠올릴 수 있는 생각이다.
이 책에서는 상호작용으로부터 배우기 위한 computational approach를 배운다
우리가 배울 접근방식 즉, reinforcement learning은 기계학습의 다른 접근법들보다 훨씬 목표지향적 학습에 중점을 둔다.

Reinforcement Learning

강화학습이란?

강화학습은 어떤 situation에서 어떻게 action을 대응시킬지를 배우는 학습이다.
learner에게 어떤 행동을 취해야할지 알려주지 않으며 따라서 learner는 어떤 action이 가장 많은 reward를 주는지 여러번 시도하면서 발견해야 합니다.
대부분의 문제에서 action은 즉각적으로 받는 reward 뿐만 아니라 다음 situation과 뒤따르는 모든 후속 reward에 영향을 미칠 수 있습니다.
이와 같은 강화학습의 두 가지 특성 trial and error search 그리고 delayed reward는 강화학습의 가장 중요하면서 차별적인 두 가지 특징입니다.

지도학습은 labeling이 되어 있는 example(또는 observation)또는 training set으로부터 학습합니다.
각 example은 situation과 그때의 situation에 대해 시스템이 취해야 하는 올바른 행동(label)에 대한 label입니다.
지도학습의 목적은 training set에 없었던 상황에서 올바르게 동작하도록 extrapolate(추론)하거나 generalization(일반화)하는 것입니다.
상호작용하는 문제에서 agent에게 바라거나,해야하는 행동을 정확히 대표하는 예시를 얻는 다는 것은 비현실적입니다. (쉽게 생각해보자면 말하자면 정확히 어떤 상황에서 어떤 행동을 하라고 정확하게 알려주는 것은 불가능하다. 아마도 상황이 수없이 많을 뿐더러 어떤 행동이 최적의 선택인지도 모르기 때문인 것 같다.)
미지의 영역(학습이 가장 도움이 될 것으로 예상되는)에서 에이전트는 자신의 경험으로 부터 스스로 배울 수 있어야 합니다.

비지도학습은 unlabeled data에 대한 hidden structure를 찾는 것이 목적입니다.
강화학습이 correct behavior에 대한 labeled data를 가지고 있지 않기 때문에 누군가는 비지도 학습으로 착각하기도 하지만 강화학습의 목적은 reward signal을 최대화 하는 것이 목적이며 비지도학습 처럼 hidden structure를 찾는 것이 목적이 아닙니다.
물론 hidden structure를 찾는 것이 강화학습에 유용할 수는 있지만 reward signal을 최대화하는 것이 목적이라는 강화학습의 문제를 설명하지 못합니다.

강화학습에만 존재하는 한가지 문제는 exploration과 exploitation사이의 trade-off입니다.
exploration,exploitation은 의사결정문제에서 가능한 두가지 행동방식으로 서로간에 장단점을 가집니다.
exploitation
- 더 많은 reward를 얻기 위해 지금까지의 데이터를 통해 optimal하다고 여겨지는 decision을 선택하는 것입니다.(알려진 것을 계속 연구하는 것)
- 리워드를 최대화하기위해 알려진 정보를 사용하여 행동하는 것입니다.
exploration
- 지금까지 데이터를 통해 optimal하다고 여겨지는 decision을 선택하지 않는 것 입니다.
- environment에 대해서 더 많은 정보를 찾기위해 랜덤하게 행동하는 것입니다.
- 이는 관측된 데이터가 best option을 결정하기에 충분하지 않다는 사실을 가정합니다.(알려진 것을 거부하고 새롭게 탐험하는 것).